from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
# 将数据转换成DataFrame
file_df = spark.read.json("file:////E:/PyCharm/PythonFolder/json/test.json")
# 将数据显示出来
file_df.show()

# select操作(选择列)
# file_df.select(file_df.product, file_df.price).show()

# 数据过滤
file_df.filter(file_df.price > 25).show()

# 分组计算groupBy(count计算总数)
file_df.groupBy("product").count().show()

# 排序
# 按照价格的降序排序
file_df.sort(file_df.price.desc()).show()
# 按价格降序，同价格时，按商品名降序
file_df.sort(file_df.price.desc(), file_df.product.desc()).show()

# 列重命名（表头） alias函数
file_df.select(file_df.product.alias("Name"), file_df.price).show()
